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摘要 : 


理 理 论 , 构建 网 络 信息 内 容 可 信和 度 的 测度 模型 ; 基于 贝 叶 
表明 ， 随 着 社会 化 媒体 参与 者 规模 增加 ,可 信和 度 测度 的 最 小 错误 率 


估 模 型。[ 结果 】 基 于 实际 数据 集 的 实验 结 


【 目的 】 构建 网 络 信息 内 容 可 信 度 的 定量 测度 模型 ， 以 提高 虚假 信息 的 筛 除 效率 。[ 方法 ] 基于 贝 叶 斯 推 


斯 决策 理论 ,构建 可 信和 度 测度 有 效 性 的 最 小 错误 率 评 


呈 下 降 趋 势 ， 且 贝 叶 斯 可 信 度 测度 模型 总 体 优 于 传统 的 模糊 可 信和 度 测度 模型 。【 局 限 】 可 信 度 测度 错误 率 的 影响 
因素 只 关注 参与 者 规模 因素 ， 而 其 他 影响 因素 ,如 条 件 属 性 或 可 参照 对 象 等 , 将 需要 进一步 研究 。[ 结论 】 基 于 
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集体 智慧 理论 , 揭示 网 络 信息 内 容 可 信和 度 测度 的 最 小 错误 率 会 随 着 参与 者 规模 增加 而 降低 。 
社会 化 媒体 ”集体 智慧 


了 中 


1 3 引 


以 用 户 生 成 内 容 (User-Generated Content, UGO) 为 
主 的 新 型 媒体 ,如 社交 网 络 (SNS)、 微 博 、 微 信 、 博 客 
(Blog) 等 ， 虽 然 为 参与 者 发 表意 见 开辟 了 一 个 无 拘 无 
束 、 不 受 限 制 的 空间 , 但 同时 使 大 众 对 网 络 信息 的 真 
实 性 产生 某 种 程度 的 怀疑 。 信 息 可 信和 度 是 指 对 于 信息 
内 容 本 身 以 及 信息 源 的 可 信任 程度 ,其 判断 者 是 信息 
接收 和 乌 。 因 此 , 网络 信息 内 容 的 可 信和 度 测 度 
(Credibility Measure)， 是 用 户 对 信息 内 容 是 否 值得 信 
任 的 判断 和 评价 ”1。 本文 侧重 于 社会 化 媒体 网 络 信 息 
内 容 的 定量 测度 。 

目前 ， 针 对 社会 化 媒体 网 络 信息 可 信 度 评估 及 测 
度 的 相关 文献 主要 是 侧重 于 对 影响 因素 进行 实证 分 析 
的 探索 性 研究 ,研究 视角 大 体 可 分 为 来 源 可 信和 度 握 、 渠 
道 可 信和 度 和 信息 内 容 可 信和 度 。 已 有 研究 虽然 推动 了 信 


息 内 容 可 信和 度 评估 的 研究 与 发 展 , 但 其 不 足 主要 体现 
在 如 下 方面 : 
(1) 基于 数理 模型 构建 的 规范 性 可 信和 度 测度 研究 
较 少 ; 
(2) 传统 评价 模型 多 侧重 于 当前 信息 内 容 状态 的 可 
信 程 度 ,， 尚 缺乏 对 已 有 经 验 及 证 据 性 数据 的 有 效 利 用 ; 
(3) 在 社交 媒体 环境 下 ,相关 研究 尚未 充分 利用 
用 户 通过 主动 参与 对 网 络 信息 内 容 进行 标注 或 评价 所 
生成 的 客观 性 行为 数据 ， 尚 未 充分 体现 用 户 对 相关 信 
息 内 容 的 认 知 性 判断 。 
针对 上 述 不 足 , 本 文 基于 贝 叶 斯 决策 理论 , 构建 
能 够 利用 已 有 经 验 及 证 据 性 数据 的 网 络 信息 内 容 可 信 
测度 模型 。 基 于 用 户 生成 内 容 的 社交 媒体 , 信息 用 户 
既 能 够 主动 参与 对 信息 内 容 进行 体验 性 判断 评价 ， 又 
能 够 对 特定 信息 内 容 进行 交互 性 判断 评价 。 因 此 , 新 
型 网 络 环境 下 ,如何 利 用 体验 性 判断 评价 及 交互 性 判 
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断 评价 ,对 海量 网 络 信息 内 容 的 可 信和 度 进 行 测度 ,， 具 
有 重要 的 理论 和 现实 意义 。 


2 文献 回顾 


传统 的 可 信 度 评估 方法 主要 是 针对 信息 用 户 的 调 
查 法 和 实验 法 。 调 查 法 和 实验 法 主要 侧重 于 探索 网 络 
信息 内 容 可 信 度 影响 因素 及 内 在 机 理 的 实证 分 析 。 为 
研究 网 民 如 何 看 待 网 络 商业 信息 ,特别 是 电子 商务 信 
息 内 容 的 可 信 度 评估 问题 , Flanagin 等 四 针对 美国 使 用 
互联 网 的 成 年 人 进行 了 一 项 具有 全 国 代表 性 的 调查 ， 
其 样本 来 自 基 于 随机 数字 拨号 和 地 址 抽样 方法 的 组 
合 。 实 验 法 是 最 初 研 究 可 信和 度 的 方法 踢 。Castillo 等 四 
基于 社会 媒体 环境 本 身 的 特征 能 够 使 用 户主 动 参与 评 
估 信 息 的 可 信 度 的 假设 , 构建 实验 模型 , 探讨 可 自动 
分 析 社会 化 媒体 信息 , 尤其 是 针对 有 新 闻 价 值 的 信息 
的 可 信 性 评估 的 方法 ,并 进一步 提出 预测 信息 可 信人 性 
的 模型 。 以 上 途径 主要 依据 领域 专家 的 定性 判断 , 构 
建 相 应 的 可 信 评 估 指 标 体 系 , 或 是 在 定性 评估 的 基础 
上 ,探测 网 络 信息 可 信和 度 的 关键 影响 因素 及 内 在 机 理 ， 
并 构建 相关 的 网 络 信息 可 信和 度 测度 模型 。 

不 少 学 者 结合 网 络 信息 内 容 的 海量 及 高 维 等 特 
征 , 构建 相应 的 数据 挖掘 分 类 及 排序 算法 ， 以 提高 网 
络 环境 下 网 络 信息 内 容 可 信 度 测度 的 效率 。Pasternack 
等 站 分 别 利用 来 自 真实 世 界 的 两 个 无 监督 数据 集 和 两 
个 半 监 督 数据 集 ， 提 出 具有 较 强 原则 性 的 概率 模型 
潜在 可 信和 度 分 析 (Latent Credibility Analysis，LCA)， 
其 性 能 显著 超过 “事实 的 发 现 者 "(Fact-Finders) 的 性 能 。 
用 于 识别 可 信 语 句 的 算法 有 TextRank 算法 钻 它 经 过 
100 个 单独 的 语料库 和 一 个 组 合 的 语料库 两 种 方法 的 
实证 检验 。 上 述 数据 挖掘 分 类 及 排序 方法 主要 是 基于 网 
络 信息 内 容 当前 状态 数据 的 挖掘 及 评估 ， 尚 缺乏 网 络 
言 息 用 户 对 其 体验 性 及 交互 性 经 验 等 先 验 知识 的 利用 。 

此 外 , 传统 的 可 信 度 测度 主要 是 模糊 测度 马 ， 其 


础 上 。 

贝 叶 斯 推理 方法 可 通过 对 已 有 经 验 及 证 据 性 数据 
的 利用 ,达到 修正 先 验 知识 的 目的 站。 以 计算 概率 的 
方式 获得 网 络 信息 内 容 的 可 信 度 值 。 与 模糊 测度 相 比 
较 , 概率 测度 具有 如 下 优势 I 论 域 可 列 可 加 ; 基于 
用 户 参 与 的 经 验 性 标注 行为 数据 , 确定 特征 关键 词 的 
存在 可 能 性 程度 ; 基于 信息 用 户 的 客观 行为 数据 ， 以 
及 可 列 可 加 性 的 特征 , 概率 测度 结果 会 较为 客观 。 此 
外 , 基于 社会 化 媒体 ,信息 用 户 相互 之 间 能 够 对 网 络 
信息 用 户 进 行 共 享 及 交互 评价 ,进而 形成 集体 智慧 
(Collective Intelligence)t 4。 基 于 网 络 信息 用 户 交 互 性 
评价 所 形成 的 集体 智慧 ， 也 将 有 助 于 提高 网 络 信息 内 
容 可 信和 度 测度 的 效率 。 

因此 , 本 文 基 于 信息 用 户 的 先 验 性 知识 及 交互 评 
价 ,将 贝 叶 斯 推理 应 用 于 网 络 信息 内 容 的 可 信 测 度 ， 
构建 基于 已 有 经 验 及 证 据 性 数据 的 网 络 信息 内 容 可 信 
度 的 定量 测度 模型 。 此 外 , 本 文 还 尝试 构造 最 小 错误 
率 计 算 公 式 ， 观 察 错 误 率 随 着 参与 者 规模 的 增 大 而 发 
生 的 变化 规律 , 探索 网 络 信息 用 户 集体 智慧 形成 过 程 
中 , 用 户 规模 对 网 络 信息 内 容 可 信和 度 测度 的 影响 。 


3 ”研究 方法 


贝 叶 斯 推理 是 经 典 的 统计 归纳 推理 , 其 推理 过 程 
不 仅 依 据 当 前 的 样本 信息 , 还 要 根据 已 有 的 经 验 和 知 
识 呈 。 贝 叶 斯 推理 由 概率 论 中 的 贝 叶 斯 定理 扩充 而 来 ， 
将 其 引入 网 络 信息 内 容 的 可 信 测 度 模型 中 , 在 使 模型 
有 具备 概率 背景 的 同时 , 也 可 将 网 络 信息 用 户 的 体验 性 
评价 作为 先 验 知识 融入 模型 ， 从 而 可 定量 测度 网 络 信 
息 内 容 的 可 信 度 。 
3.1 基于 贝 叶 斯 推理 的 可 信和 度 测度 模型 

本 文 以 案例 “苹果 具有 红 的 前 提 下 是 否 甜 * 的 条 件 
性 推理 问题 为 例 说 明 信 息 内 容 可 信 度 测度 的 贝 叶 斯 推 
理 思路 ,为 方便 计算 , 在 全 部 是 苹果 的 大 前 提 下 , 选择 


中 模糊 隶属 度 的 确定 是 测度 的 关键 。 隶属 度 函 数 是 模 
糊 控制 的 应 用 基础 ,正确 地 构造 隶属 度 函 数 是 用 好 模 
糊 控制 的 关键 之 一 。 录 属 度 函 数 的 确定 过 程 , 本质 上 
应 该 是 客观 的 , 但 每 个 人 对 于 同一 个 模糊 概念 的 认识 
理解 义 有 差异 , 因此 , 隶属 度 函 数 的 确定 又 带 有 主观 
性 。 隶属 度 函 数 的 确立 目前 还 没有 一 套 成 享有 效 的 方 
法 ,大 多 数 系统 的 确立 方法 还 停留 在 经 验 和 实验 的 基 


数据 分 析 与 知识 发 现 


苹果 “ 红 ” 与 “ 甜 ” 这 两 个 属性 , 分 别 用 马 了 表示 , 并 且 
采取 二 值 0、! 赋值 的 方法 ,数字 “1 代表 苹果 红 或 甜 ， 
数字 “0” 即 为 不 红 或 不 甜 。 可 计算 在 苹果 红 的 条 件 下 蔷 
果 为 甜 的 概率 ,公式 如 下 : 
P(Y=1/X=1)= 

P(X =1/Y=DP(Y =)1) (1) 
P(X¥=1/Y=DP(Y =1)+P(X¥=1/Y=0)P(Y =0) 


其 中 ，P(Y =1 是 属性 甜 的 先 验 概率 ，P(Y = 0) 
则 表示 属性 不 甜 的 概率 ; 而 P(X=1/Y=1) 和 
P(X =1/Y=0) 分 别 表示 在 收集 苹果 甜 与 不 甜 的 样本 
信息 的 条 件 下 , 苹果 红 的 抽样 分 布 概率 。 上 述 先 验 分 
布 概率 及 条 件 分 布 概率 均 可 基于 实际 数据 统计 得 到 。 

此 外 , 尚 需 考 虑 信息 用 户 规模 对 网 络 信息 内 容 可 
信 度 测度 的 影响 。 因 为 苹果 “ 红 ” 与 “ 甜 ” 的 属性 值 为 0 
或 1, 故 对 于 特定 对 象 “ 便 果 ” 而 言 , 属性 “ 红 ” 与 “ 甜 ” 相 
应 的 属性 值 均 服从 二 项 分 布 , 事件 “苹果 甜 且 红 ”、“ 豆 
果 甜 但 不 红 ”"、“ 苹 果 不 甜 但 红 ”"、“ 苹 果 不 甜 也 不 红 ” 也 
服从 二 项 分 布 , 且 它 们 构成 一 个 完备 事件 组 ,将 事件 
“ 蕴 果 红 且 甜 ” 表 示 为 事件 4。 所 以 ，P(4)= p=1/4， 
P(4)=1-p=3/4。 于 是 , n 重 伯 努 利 试验 中 , 事件 4 
出 现 的 概率 为 p， 则 4 出 现 MOM 为 随机 变量 ) 次 的 概 
A(k;n,p)= PM =K)= Ctp*(— py ,k=0,1,2,.…,n 

于 是 , 公式 (1) 可 表示 为 公式 (2) 所 示 。 
P(Y =1/X=1)= 

Crp (1-p) "PY=)) 
Cip"l-p)" PY=D+Chp™ (py PY=0) 
(2) 

由 训练 集 可 得 公式 (2) 的 初始 先 验 概率 为 
P(Y=])=p=1/4, 似 然 概率 为 Ctp%*(-p)”*“，, 其 
中 =1, 2, 3,…,n，ie {1,2},n 为 样本 矩阵 的 行 数 。 
为 苹果 红 且 甜 的 数量 (X=1， 天 1)， 为 苹果 红 但 不 甜 
的 数量 (X=1， 天 0)， 由 此 便 可 直接 代入 公式 (2) 计 算得 
出 事件 4 的 后 验 概率 P(Y =1/X=1)。 

贝 叶 斯 推理 不 仅 利用 当前 信息 , 还 要 在 新 的 证 据 
性 数据 的 基础 上 修正 先 验 信息 。 因 此 , 本 文 基于 参与 对 
信息 内 容 进行 体验 性 评价 及 交互 性 评价 的 信息 用 户 规 
模 的 不 同 , 根据 用 户 规模 分 组 计算 事件 4 的 概率 值 。 

基于 贝 叶 斯 推理 的 可 信和 度 测度 中 先 验 概率 的 获 
取 , 需要 说 明 的 是 , 计算 第 一 组 事件 4 的 后 验 概率 时 ， 
贝 叶 斯 公式 中 的 先 验 分 布 概率 及 条 件 分 布 概率 均 由 实 
际 数据 统计 得 到 ， 而 从 第 二 组 数据 开始 , 其 先 验 概率 
P(Y =D 为 上 一 组 数据 的 后 验 概率 ， 即 : 

Pi =D)=P(Y, =1/X,=1),i=1,2,...,n 

这 样 可 求 得 事件 4 的 概率 , 并 且 经 过 按 比例 的 规 
模 增 加 进行 多 次 迭代 计算 , 得 到 与 按 比例 增加 的 规模 
相对 应 的 多 个 概率 值 。 
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对 于 社交 媒体 网 络 信 息 而 言 ,其 信息 内 容 是 否 可 
信 ， 主 要 体现 为 信息 内 容 所 包含 的 关键 词 是 否 可 信 。 
如 果 将 信息 内 容 对 象 类 比 为 “苹果 ”， 则 信息 内 容 所 包 
含 的 关键 词 可 类 比 为 “苹果 ”所 包含 的 “ 红 或 甜 等 属 
性 。 信 息 内 容 所 包含 的 关键 词 是 否 可 信 , 可 借鉴 “ 芋 
果 " 在 可 观察 的 属性 “ 红 ” 的 条 件 下 ,基于 贝 叶 斯 推理 所 
揭示 的 其 隐 含 属性 “ 甜 ” 的 存在 可 能 性 。 因 而 , 本 文 基 
于 直观 例子 “ 莘 果 具有 红 的 前 提 下 是 否 甜 "所 构建 的 由 
叶 斯 推理 模型 公式 (2), 可 类 比 运用 于 社交 媒体 网 络 信 
息 内 容 具有 可 观察 确信 关键 词 的 前 提 下 , 计算 隐 含 关 
键 词 是 否 存 在 的 可 能 性 。 

更 一 般 地 , 为 定量 测度 信息 内 容 对 象 C 具有 目标 
关键 词 Ki 的 可 信 程 度 ， 本 文 所 构建 的 可 信 度 测度 模型 
涉及 该 对 象 的 另 一 条 件 关键 词 K, 以 及 基于 观察 者 体 
验 性 经 验 , 能 够 揭示 该 信息 内 容 对 象 C 是 否 具有 目标 
关键 词 Ki 及 条 件 关 键 词 K 的 记录 规模 N， 如 公式 (3) 
所 示 。 

PR =1/K, =1)= 
Chapad-p" “PK = 
Crp ll-p)" "PK =D+Cep2-DD "PK =0) 


(3) 

为 简化 计算 使 其 更 为 一 般 化 ,公式 (3) 中 的 目标 关 
键 词 Ki 及 条 件 关键 词 K, 可 取 值 为 更 一 般 化 的 1( 具 有 
该 关键 词 ) 或 0( 不 具有 该 关键 词 )。 
3.2 ”基于 贝 叶 斯 决策 的 最 小 错误 率 评价 

为 衡量 上 述 基 于 贝 叶 斯 推理 的 可 信 度 测度 模型 的 
有 效 性 ， 尝试 基于 贝 叶 斯 决策 理论 , 引入 错误 率 的 概 
念 , 计算 其 最 小 错误 率 "， 并 进一步 探测 在 特定 场景 
下 信息 的 可 信和 度 随 着 参与 者 规模 的 增加 ， 可 信和 度 测 度 
模型 最 小 错误 率 变化 的 趋势 。 

(1) 贝 叶 斯 决策 

在 运用 贝 叶 斯 决策 理论 的 时 候 必须 满足 如 下 的 基 
本 条 件 : 各 类 别 总 体 的 概率 分 布 是 已 知 的 ; 被 决策 的 
分 类 数 是 一 定 的 中 I。 因此 ,以 上 述 特定 事物 苹果 为 例 ， 
基于 其 是 否 具有 两 种 属性 ( 红 或 甜 )， 可 将 其 划分 为 4 
种 状态 , 用 丈 表 示 状 态 , W={Wi, 到 , 到, Wa}。 具 体 表 
示 如 图 1 所 示 。 

如 图 1 所 示 ， 表示 状态 “苹果 红 且 甜 ”"，W, 表示 
状态 “苹果 红 但 不 甜 ”"，]W 表示 状态 “苹果 不 红 但 甜 ” 
W4 则 表示 状态 “ 蔷 果 不 红 也 不 醛 ”。 
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图 1 特定 对 象 “ 革 果 ” 具 有 属性 红 或 甜 的 
状态 文 氏 图 

当 状 态 砚 发 生 时 P( 历 ) = PI7=1/ 和 =D; 当 状 
态 瑟 发 生 时 P( 到 )=PIF =0/ 和 =D; 当 状态 历 发 生 
时 P( 卫 )=P=1X=0 ; 当 状 态 现 发 生 时 
POW)=P(Y=0/X=0) 。 其 中 ，P( 历 )+P( 到 )=1 
P( 矶 )+P( 瑟 )=1。 这 4 种 状态 出 现 的 概率 均 可 计算 
得 出 ,以 P( 矶 ) 为 例 其 计算 如 公式 (4)。 
P(U713) = 


Ceped-peP7=D 
Cepe(-DpeP7=D+C4pa-D “PY=0) 


(4) 
其 中 ， 太 为 苹果 不 红 且 甜 的 数量 (二 0， 天 0， 已 


为 苹果 不 红 也 不 甜 的 数量 (X=0, 天 0)。 

(2) 类 条 件 概率 密度 函数 

除 用 作 训 练 参数 计算 概率 值 的 数据 组 外 ,根据 样 
本 特征 组 成 二 维特 征 向 量 z =[x,,y,], 其 中 i 二 1, 2。 该 
二 维特 征 向 量 用 于 计算 上 述 4 类 状态 的 类 条 件 概 率 密 
度 , x 和 y 的 可 能 取 值 均 为 0 和 1。 即 有 
z=[X%=L,y=1] , z=[x,=1,y,=0],， 
号 =]]，z=[x =0,y4 =0]。 属 性 x=1 表示 始终 选择 
苹果 属性 为 红 的 数据 ，p(z/w) 是 红 苹 果 的 属性 为 甜 
的 类 条 件 概率 密度 ， 目 p(z/w)= p(x=], 
四 =1) ; p(z/w,) 是 红 革 果 的 属性 不 甜 的 类 条 件 概 率 
密度 , 且 p(z/w)= p(x; =1L =0， 以 此 类 推 可 分 别 
求 得 到 与 W4 的 类 条 件 概率 密度 。 由 于 状态 1 和 状 
态 2 发 生 的 概率 构成 完备 事件 组 ，P(W)+P(W,)=1， 
同 理 有 P( 历 )+ P( 瑟 ) =1 。 基 于 初始 的 训练 集 ， 类 条 件 
概率 均 可 计算 确定 ， 即 有 p(z/w)= (1/4)*, 二 1,， 2, 3, 
4。 其 中 , 矿 表 示 4 类 状态 的 统计 数量 。 

当 i 取 值 为 1 或 2 时 , 分 别 计算 出 状态 下 和 万 
的 后 验 概率 , 表示 如 下 : 


z=[xs =0, 
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/w; le 
Eo p(z/wi)p(wW;) (5) 


pl(z/w)pw)+ p(z/w) p(w,) 

同 理 ， 当 i 取 值 为 3 或 4 时 ,计算 状态 成 和 到 
的 后 验 概 率 , 表示 如 下 : 
je Pp(z/ wi) p(wi) (0) 

pl(z/w)p(w) + p(z/wa)p(wa) 

(3) 最 小 错误 率 公式 

为 保证 错误 率 最 小 , 要 使 对 于 每 个 证 据 因子 的 
Ple/z) 取 最 小 值 ， 所 以 每 次 均 取 Pw/z) 和 
Pw,1z) 、Pom /3 和 Pow /2 中 的 最 小 值 n9。 表 示 
如 下 : 

当 i 取 值 为 1 或 2 时 ,P(e/z)= min{P(w /2), 
P(w, /2)} 

当 j 取 值 为 3 或 4 时 ，B(e/z)=min{P(w /2z), 
P(w /27)} 

所 以 ,错误 率 P(e)=P(e/z)P(w)+PB(e/z) 
Plw;) ， 其 中 二 1 或 23 或 4。 例 如 ， 当 
P(e/z)= P(w/z) 时 , 二 1; 当 PB(e/z)= Pw/z) 时 ， 
所 3, 以 此 类 推 。 

3.3 ”模型 实例 

为 进一步 明确 上 述 步骤 , 本 文 以 样本 数据 为 例 说 
明 上 述 模型 的 思路 , 样本 数据 集中 训练 集 为 100 条 记 
录 的 前 50 条 记录 ; 测试 集 为 后 50 条 记录 。 

首先 ,观察 数据 可 得 ,万 为 苹果 红 且 甜 的 数量 ， 
石 =11， 有 已 为 苹果 红 但 不 甜 的 数量 ,局 =15， 由 此 便 
可 直接 代入 公式 (2) 和 公式 (4) 计 算得 出 苹果 在 红 的 条 
件 下 甜 的 后 验 概率 P =1/ 对 =1) 以 及 苹果 在 不 红 的 
条 件 下 甜 的 后 验 概率 P(Y =1/ 碟 = 0) 如 下 : 

P(Y =1/X =1) 
_ Crp"(-pY "PY=)) 
cap-D “PY=D+Crp* Up)" PY=0) 
11 
50 
CC 1 }1¢ 3 )50-11 x 11 末 CI5( 1 J15( 3 )50-15 x 11 
4 4 50 4 4 50 


p(wi/z 


CUCL YG3 yo x 
4 4 


~ 0026 023 
0.026+0.089 
另外 ， 石 为 苹果 不 红 但 甜 的 数量 ，h =10， 态 为 


苹果 不 红 也 不 甜 的 数量 ，k =14 。 


P(Y =1/X =0) 
_ Ceped-peP7=D 
Ceped-mePT=D+Cpd-DePT7=0) 


Cl0C 工 )0C3 )50.10 vl 
4 4 50 


11 
50 


Cl 1 JIod 3 J50-10 > 11 + Cl 1 ji4¢ 3 )50-14 > 
4 4 50 4 4 


,00 0.21 
0.099+0.111 


于 是 ,状态 “ 红 苹 果 甜 ”的 概率 为 P( 扩 )0.23; 状 
态 “ 红 苹果 不 甜 * 的 概率 为 P()=1-0.23=0.77; 状态 
“ 华 果 不 红 但 甜 ” 的 概率 为 P(1W)=0.21; 状态 “ 蕴 果 不 红 
也 不 甜 ”的 概率 为 PUP)=1-0.21=0.79。 然 后 ,利用 测试 
集 z=[x;,y;] 得 出 状态 的 后 验 概 率 , 其 中 i=1, 2, 3, 4。 
测试 集中 ， 为 苹果 红 旦 甜 的 数量 ，h =12，b 为 苹 
果 红 但 不 甜 的 数量 ，k, =14 ，k 为 苹果 不 红 但 甜 的 数 
量 ，h =6， 三 为 苹果 不 红 也 不 甜 的 数量 ，k =18 。 基 
于 公式 (5) 和 公式 (6) 计 算 可 得 到 : 

Pp(z/w)pW) 

Pp(z/w)p(w)+ p(z/w,) p(w,) 


p(w /2z)= 


(2 x0.23 
4 ~ 0.827 


Ta 1 14 
一 0.23 + (一 0.77 
a 人 
P(w /2)=1-0.827 = 0.173 


p(z/wa)p(w) 
plz/w)p(w)+p(z/wa)p(wa) 


p(w /2)= 


(ys x0.21 
和 ~ 0.999 


1 1 
人 x0.21+ GY x0.79 
p(wa/z)=1-0.999=0.001 
显然 ，p(wy1z)< p(wi/z);p(wa/z) < p(w3/z) ， 
则 B(e/z)=0.173;B(e/z)=0.001。 
所 以 ,第 一 组 数据 最 终 的 错误 率 为 : 
P(e)= P(e/z)P(w,)+PB(e/z)P(w)=0.173x0.77+ 
0.001x 0.79 = 0.134。 


4 实验 验证 


基于 三 类 真实 数据 集 ， 以 及 衡量 可 信 度 测度 效率 
的 最 小 错误 率 公式 , 将 本 文 所 构建 的 贝 叶 斯 推理 可 信 


总 第 6 期 2017 年 第 6 期 


度 测 度 模型 , 与 目前 具有 代表 性 的 模糊 可 信 度 测度 模 
型 相 比较 ， 以 验证 上 述 基 于 贝 叶 斯 推理 的 网 络 信息 内 
容 可 信和 度 测度 模型 ， 并 探索 贝 叶 斯 可 信和 度 测度 模型 和 
模糊 可 信 度 测度 模型 的 最 小 错误 率 随 着 参与 者 规模 的 
增加 而 变化 的 趋势 。 
4.1 实验 思路 及 数据 集 

为 探索 错误 率 随 记录 规模 增加 而 变化 的 规律 , 本 
文 尝试 按 一 定 比 例 逐 渐 增 加 样本 的 数量 (如 每 次 抽样 
在 原来 记录 规模 基础 上 增加 100 条 记录 ), 依次 抽取 累 
积 的 记录 作为 样本 数据 。 在 每 次 实验 中 ,取样 本 数据 
的 50% 作 为 可 信 度 测度 计算 的 输入 ,基于 贝 叶 斯 可 信 
度 测 度 公式 计算 对 象 是 否 具 有 目标 属性 的 可 信和 值 ; 取 
样本 数据 的 50% 作 为 最 小 错误 率 计算 的 输入 ,基于 最 
小 错误 率 公式 计算 可 信和 度 测度 的 错误 率 。 

基于 典型 的 UCI 数据 库 ”, 分 别 选 取 计 算 机 、 社 
交 、 网 络 新 闻 三 个 不 同 领 域 的 社交 媒体 数据 集 。 对 于 
每 个 数据 集 ， 分 别 确定 可 观察 的 条 件 属性 关键 词 以 及 
隐 含 的 目标 属性 关键 词 。 基 于 社交 媒体 参与 者 的 评价 
或 标注 ， 如 果 参 与 者 认为 信息 内 容 对 象 具有 相应 属性 
关键 词 , 则 相应 目标 属性 及 条 件 属性 取 值 为 1( 具 有 该 
属性 ), 否则 为 0( 不 具有 该 属性 )， 因 而 每 个 数据 集 是 取 
值 为 0 或 1 的 矩阵 MM,，, 其 中 ,n 为 参与 者 的 规模 ， 两 列 
属性 关键 词 为 别 为 目标 属性 关键 词 和 条 件 属性 关键 词 。 

数据 集 1: 数据 集 1 来 自 于 2012 年 YouTube 的 喜 
剧 大 满 贯 实验 ， 属 于 计算 机 类 主题 ， 共 包含 1 138 562 
条 记录 ,3 个 属性 , 抽取 该 对 象 的 目标 属性 “ 左 或 
右 ”"( 左 表示 视频 有 趣 , 右 则 相反 ) 及 条 件 属 性 “YouTube 
视频 ID”， 可 构成 1593 行 、2 列 的 0-1 和 矩阵 。 

数据 集 2: 数据 集 2 来 自 于 博客 帖子 在 24 小 时 之 
内 的 评论 数量 , 属于 社交 类 主题 , 共 包 含 60 021 条 记 
录 , 281 种 属性 , 抽取 该 对 象 的 目标 属性 “博客 的 评论 
数 ” 及 条 件 属性 “博客 文章 的 长 度 ”， 可 构成 21 276 行 、 
2 列 的 0-1 矩阵 。 

数据 集 3: 数据 集 3 来 自 于 互联 网 信息 服务 器 
MSNBC.com 和 MSN.com 新 闻 相 关 的 部 分 记录 , 属于 
网 络 新 闻 类 主题 ， 相 关 记 录 共 有 981 818 条 记录 、17 
个 属性 , 抽取 该 对 象 的 目标 属性 “首页 与 新 闻 ” 的 点 击 
顺序 及 条 件 属 性 “首页 与 其 它 ” 的 点 击 顺序 ,可 构成 
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435050 行 、2 列 的 0-1 矩阵 。 
4.2 ”实验 结果 

本 文 所 构建 的 可 信和 度 测度 模型 及 衡量 可 信和 度 测 
度 模型 的 最 小 错误 率 公 式 , 对 三 个 不 同 领 域 的 相关 
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数据 集 进行 实验 , 分 别 得 到 随 着 用 户 规 模 而 变化 的 


错误 率 。 
实验 一 : 计算 机 类 主题 的 可 信 度 测度 ， 基 于 实验 
结果 如 图 2 所 示 。 


T A T T T T 
人 -。- 模 村 可 信 度 测度 。 。 
-ea 贝 叶 斯 可 信 度 测度 一 
有 到、 0 
I | 1 四 用 一 一 和 是 一 和 
200 400 600 0 1000 1200 1400 1600 
参与 者 规模 


图 2 计算 机 领域 对 象 可 信 度 测度 


由 图 2 可 知 , 参与 者 规模 从 200 增加 到 1 593 的 过 
程 中 , 模糊 可 信 度 测度 模型 的 最 小 错误 率 始终 高 于 贝 
叶 斯 可 信和 度 测度 模型 的 最 小 错误 率 。 因 此 , 对 于 计算 
机 领域 对 象 可 信和 度 测度 而 言 ， 贝 叶 斯 可 信和 度 测度 模型 
具有 较 高 的 可 行 性 和 有 效 性 。 

就 贝 叶 斯 可 信和 度 测度 的 错误 率 而 言 ， 当 用 户 规 模 
小 于 400 时 , 错误 率 随 着 用 户 规 模 的 增加 而 显著 提高 ; 
当 用 户 规模 大 于 400 时 , 错误 率 随 着 用 户 规模 的 增加 


D NA 
0 2000 4000 6000 8000 


| 


10000 12000 14000 16000 18000 


的 错误 率 随 用 户 规模 变化 的 趋势 


而 显著 降低 ; 当 用 户 规模 达到 800 时 , 错误 率 趋 于 稳 
定 。 该 领域 的 对 象 是 否 具 有 目标 属性 的 可 信和 度 测 度 模 
型 的 错误 率 随 着 用 户 规模 的 增加 具有 波动 的 特征 。 结 
合 错误 率 随 用 户 规模 变化 的 趋势 ， 对 于 该 领域 的 对 象 
而 言 , 在 对 其 具有 目标 属性 的 可 信和 度 进行 测度 时 ， 应 
选择 用 户 规 模 大 于 800 为 宜 。 

实验 二 : 社交 主题 的 可 信 度 测度 , 实验 结果 如 图 
3 所 示 。 


a -模糊 可 信 度 测度 -| 
一 贝 叶 斯 可 信 度 测度 - 


| 
200000 


参与 者 规模 


图 3 社交 领域 对 象 可 信 度 测 


由 图 3 可 知 ， 两 个 模型 的 可 信 度 测度 的 最 小 错误 
率 均 总 体 呈 现 降低 的 趋势 。 参 与 者 规模 从 2 000 增加 
到 6 000 的 过 程 中 , 也 即 参与 者 规模 较 小 时 , 模糊 可 信 
度 测度 模型 的 最 小 错误 率 低 于 贝 叶 斯 可 信和 度 测 度 模型 
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度 的 


错误 率 随 用 户 规模 变化 的 趋势 


的 最 小 错误 率 。 而 随 着 参与 者 规模 的 增加 , 模糊 可 信 
度 测度 模型 的 最 小 错误 率 也 开始 高 于 贝 叶 斯 可 信和 度 测 
度 模型 的 最 小 错误 率 。 因 此 ,对 于 社交 领域 对 象 可 信 
度 测 度 而 言 ， 随 着 参与 者 越 来 越 多 ， 贝 叶 斯 可 信和 度 测 


度 模型 具有 较 高 的 可 行 性 和 有 效 性 。 

就 可 信和 度 测 度 的 错误 率 而 言 ， 当 用 户 规模 小 于 
2 000 时 , 错误 率 随 着 用 户 规 模 的 增加 而 显著 提高 ; 
当 用 户 规模 大 于 2 000 且 小 于 12 000 时 , 错误 率 随 着 
用 户 规 模 的 增加 而 总 体 呈 下 降 趋 势 ， 尽管 这 期 间 有 
上 下 波动 ; 当 用 户 规模 大 于 12 000 时 ， 错 误 率 逐渐 降 
低 并 且 渐 渐 趋 于 稳定 。 该 领域 的 对 象 是 否 具 有 目标 属 
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性 的 可 信和 度 测 度 模 型 的 错误 率 随 着 用 户 规模 的 增加 
具有 波动 的 特征 。 结 合 可 信 度 及 错误 率 随 用 户 规模 变 
化 的 趋势 ， 对 于 该 领域 的 对 象 而 言 ， 在 对 其 具有 目标 
属性 的 可 信和 度 进 行 测度 时 ， 应 选择 用 户 规模 大 于 
12 000 为 宜 。 

实验 三 : 网 络 新 闻 信 息 主题 的 可 信和 度 测 度 , 实验 
结果 如 图 4 所 示 。 


-e- 模糊 可 信 度 测度 
=- 贝 叶 斯 可 信 度 测度 


oad \\ 
pa 人 “6 二 
-和 -站 -本 日- 日- 日 - 峡 - 昌 -日 5 旺 


300000 350000 400000 450000 


参与 者 规模 
图 4 网络 新 闻 领 域 对 象 可 信 度 测度 的 错误 率 随 用 户 规模 变化 的 趋势 


由 图 4 可 知 ， 两 个 模型 的 可 信 度 测度 的 最 小 错误 
率 均 总 体 呈 现 降 低 的 趋势 。 参 与 者 规模 从 50 000 增加 
到 200 000 的 过 程 中 , 模糊 可 信和 度 测度 模型 的 最 小 错 
误 率 低 于 贝 叶 斯 可 信 度 测度 模型 的 最 小 错误 率 。 而 随 
着 参与 者 规模 的 增加 , 模糊 可 信和 度 测度 模型 的 最 小 错 
误 率 开始 高 于 贝 叶 斯 可 信和 度 测 度 模 型 的 最 小 错误 率 。 


型 的 最 小 错误 率 会 随 着 用 户 规模 的 增加 ， 总 体 呈 现 降 
低 且 始终 大 于 0 的 趋势 , 但 对 于 不 同 领域 的 对 象 及 目 
标 属性 而 言 , 该 变化 趋势 也 具有 不 同 的 波动 特征 。 
4.3 结果 讨论 

在 构建 可 信和 度 测度 模型 过 程 中 , 本文 基 于 贝 叶 斯 
推理 理论 ， 首先 针对 一 定 用 户 规模 的 特定 事件 所 具有 
目标 属性 的 数据 集 , 计算 出 其 先 验 概率 ; 然后 按 一 定 


因此 ， 对 于 网 络 新 闻 领 域 对 象 可 信和 度 测度 而 言 ， 随 着 
参与 者 越 来 越 多 ， 贝 叶 斯 可 信和 度 测度 模型 具有 较 高 的 
可 行 性 和 有 效 性 。 
就 可 信和 度 测度 的 错误 率 而 言 ， 当 用 户 规模 小 于 
100 000 时 , 错误 率 的 波动 较 大 ,， 随 着 用 户 规模 的 增加 
而 总 体 呈 下 降 趋 势 ; 当 用 户 规模 大 于 150 000 时 , 错误 
率 随 着 用 户 规模 的 增加 而 显著 降低 ; 当 用 户 规模 达到 
350 000 时 , 错误 率 趋 于 稳定 。 由 上 述 结果 可 知 ， 贝 叶 
斯 可 信和 度 测度 模型 结果 的 错误 率 随 着 用 户 规模 的 增加 


比例 逐渐 增加 用 户 规模 ， 对 该 特定 事件 具有 目标 属性 
的 可 信和 度 进行 迭代 计算 ; 最 后 获得 随 着 用 户 规模 不 断 
扩大 所 不 断 增 加 的 新 信息 , 计算 该 特定 事件 具有 目标 
属性 可 信和 度 的 后 验 概率 逐渐 被 修正 的 结果 。 本 文 模型 
利用 参与 用 户 对 事件 是 否 具 有 目标 属性 的 体验 性 经 
验 ,提出 了 网 络 信息 内 容 可 信 度 的 定量 测度 指标 。 
对 于 可 信 度 测度 模型 结果 的 评价 , 本 文 基于 贝 叶 
斯 决策 理论 , 构建 最 小 错误 率 模 型 ， 该 模型 在 一 定 程 


具有 波动 的 特征 。 结 合 可 信 度 及 错误 率 随 用 户 规模 变 


度 上 揭示 了 特定 事件 具有 目标 属性 可 信和 度 的 可 靠 性 或 


化 的 趋势 ,对 于 该 领域 的 对 象 而 言 , 在 对 其 具有 目标 
属性 的 可 信和 度 进行 测度 时 , 应 选择 参与 者 规模 介 于 
200 000 和 300 000 之 间 以 及 大 于 350 000 为 宜 。 

上 述 实 验 结果 表明 : 在 参与 者 规模 越 来 越 多 的 情 
况 下 ， 贝 叶 斯 可 信 度 测度 模型 相 较 于 模糊 可 信 度 测度 
模型 而 言 , 具有 较 高 的 可 行 性 ; 贝 叶 斯 可 信 度 测度 模 


可 接受 程度 ,为 可 信和 度 测 度 模型 的 实际 运用 提供 了 更 
多 的 参照 标准 。 即 ， 对 于 一 定 的 用 户 规模 ， 当 其 可 信 度 
测度 的 最 小 错误 率 较 高 时 ， 相 应 的 可 信 度 测度 值 的 可 
靠 性 或 可 接受 程度 较 低 。 并 揭示 了 随 着 用 户 规 模 的 增 
加 ， 最 小 错误 率 总 体 降低 的 趋势 , 这 其 中 体现 了 集体 
智慧 的 规律 。 
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此 外 , 本 文选 择 目 前 具有 代表 性 的 模糊 测度 法 ， 
基于 贝 叶 斯 决策 的 最 小 错误 率 公 式 , 分 别 探索 模糊 可 
信 度 测度 模型 和 贝 叶 斯 可 信 度 测度 模型 的 最 小 错误 率 
随 着 参与 者 规模 的 增加 而 变化 的 趋势 。 虽 然 随 着 参与 
者 规模 的 增加 ， 两 个 模型 的 最 小 错误 率 总 体 都 呈现 降 
低 的 趋势 , 但 是 模糊 可 信 度 测度 模型 的 最 小 错误 率 总 
体 而 言 高 于 贝 叶 斯 可 信 度 测度 模型 的 最 小 错误 率 , 由 
此 证 明 本 文 构建 的 贝 叶 斯 可 信 度 测度 模型 的 有 效 性 和 
可 行 性 。 


$5 结论 与 展望 


基于 贝 叶 斯 推理 理论 , 构建 了 网 络 信息 内 容 可 信 
度 测 度 模 型 ， 基 于 贝 叶 斯 决策 理论 , 构建 了 衡量 可 信 
度 测 度 模型 的 最 小 错误 率 模 型 ， 并 基于 集体 智慧 的 思 
想 , 揭示 了 随 着 参与 用 户 规模 的 增 大 , 最 小 错误 率 识 
别 错误 率 的 变化 规律 。 利 用 三 个 不 同 领域 的 真实 数据 
集 , 验证 了 相关 模型 的 有 效 性 。 具体 而 言 ， 本 文 所 构建 
的 网 络 信息 内 容 可 信 度 测度 模型 及 最 小 错误 率 模型 具 
备 以 下 优势 : 

(1) 不 同 于 传统 的 基于 调查 或 实验 、 基 于 领域 专 
家 知识 的 定性 判断 、 以 及 基于 用 户主 观感 知 " "的 侧重 
于 定性 的 信息 可 信 度 评估 途径 , 本文 基 于 贝 叶 斯 推理 
及 决策 模型 ,构建 了 基于 参与 用 户 客观 行为 数据 的 信 
息 可 信 度 定量 测度 模型 。 

(2) 基于 贝 叶 斯 推理 的 网 络 信息 可 信 度 测度 模型 ， 
实现 了 对 已 有 经 验 和 证 据 性 数据 的 有 效 利 用 , 也 即 ， 
随 着 用 户 规模 按 比 例 扩大 ， 较 小 用 户 规模 时 的 后 验 概 
率 会 作为 先 验 概 率 , 增加 的 用 户 经 验 会 不 断 修 正 该 先 
验 概率 ,进而 形成 更 符合 实际 可 信 度 的 后 验 概率 。 该 
途径 不 再 单纯 依据 当前 信息 内 容 ， 从 而 弥补 了 传统 数 
据 挖掘 中 分 类 及 排序 方法 缺乏 对 先 验 知识 及 新 信息 进 
行 利用 的 不 足 。 

(3) 基于 贝 叶 斯 决策 理论 的 最 小 错误 率 模型 ， 实 现 
了 对 可 信 度 测度 可 靠 性 及 可 接受 程度 的 评价 .对 于 特定 
用 户 规模 前 提 下 ,可 信和 度 测 度 值 是 否 可 靠 , 应 参考 相关 
的 最 小 错误 率 是 否 满足 实际 应 用 的 可 接受 标准 。 该 模型 
为 可 信 度 测度 模型 的 实际 应 用 提供 了 参照 标准 ,并 可 
更 加 直观 地 体现 测度 模型 的 可 行 性 .相关 实验 结果 也 揭 
示 了 集体 智慧 理论 所 体现 的 规律 。 随 着 参与 用 户 规模 
的 增加 ， 可 信 度 测度 的 错误 率 总 体 趋 于 下 降 。 


一 


葬 浊 数据 分 析 与 知识 发 现 


ChinaXiv 合 作 期 刊 


研究 文 


对 于 不 同 领域 的 实验 数据 ,基于 本 文 所 构建 的 最 
小 错误 率 模 型 ， 随 着 参与 者 规模 的 增加 ， 最 小 错误 率 
总 体 呈 现下 降 趋 势 。 并 且 模 糊 可 信 度 测度 模型 的 最 小 
错误 率 高 于 贝 叶 斯 可 信 度 测度 模型 的 最 小 错误 率 由 此 
证 明了 本 文 构 建 的 贝 叶 斯 可 信 度 测度 模型 的 有 效 性 和 
可 行 性 。 但 对 于 不 同 领域 的 数据 而 言 ， 其 波动 趋势 会 
有 差异 , 因而, 本 文 所 构建 的 可 信 度 测度 模型 虽然 适 
用 领域 范围 较 广 , 但 在 具体 应 用 时 ， 应 分 析 相 关 的 应 
用 领域 场景 前 提 。 

鉴于 网 络 信息 内 容 可 信 度 测度 所 涉及 的 影响 因素 
较 复 杂 , 本 文 所 构建 的 可 信和 度 测度 模型 仍 存在 一 些 在 
未 来 的 研究 中 需要 进一步 改进 的 工作 : 网 络 信息 内 容 
可 信和 度 的 影响 因素 较 多 , 除 条 件 属性 及 用 户 规模 之 外 ， 
其 他 因素 对 可 信和 度 测度 的 影响 程度 需要 进一步 探索 ， 
此 外 , 不 同 影响 因素 之 间 的 相关 性 也 需要 在 构建 可 信 
度 测 度 模 型 时 进一步 探讨 ; 本 文 实验 主要 涉及 三 个 不 
同 领 域 的 数据 集 ， 相 关 模 型 是 否 适用 于 其 他 更 为 广泛 
的 应 用 领域 , 需要 在 今后 的 研究 中 进一步 验证 。 
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Measuring Credibility of Social Media Contents Based on Bayesian 
Theory 
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Abstract: [Objective] This paper builds a model to quantitatively measure the credibility of Web contents, aiming to 
improve the efficiency of removing dis-information. [Methods] We first constructed a credibility measurement model 
based on Bayesian inference theory, and then established a minimum error rate evaluation model for credibility 
measurement with Bayesian decision theory. [Results] With the increasing of social media users, the minimum error 
rate of credibility degree went down, and the proposed model had better performance than those based on traditional 
fuzzy theory. [Limitations] The influencing factors of the reliability measurement model only include the number of 
participants. More research is needed to examine other factors, such as the conditional attributes and the reference 
objects. [Conclusions] This paper reveals that the minimum error rate is decreased by increasing the number of 
participants. 


Keywords: Credibility Degree Measure Web Content Bayesian Theory Social Media Collective Intelligence 
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刊物 将 秉承 反映 前 沿 动态 、 推 动 学 科 发 展 、 引 领 学 术 创新 "的 办 刊 理念 ,广泛 吸 纳 计算 机 科学 、 数 据 科学 、 情 报 科学 领 
域 的 优秀 研究 成 果 ,取信 数据 瑟 动 的 语义 计算 、 数 据 挖掘、 知识 发 现 、 决 策 支 持 等 方面 的 技术 、 方 法 与 政策 、 机 制 。 
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